
%!TEX program = xelatex
%!TEX TS-program = xelatex
%!TEX encoding = UTF-8 Unicode

\documentclass[10pt]{article} 

\input{wang_preamble.tex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{titling}
\setlength{\droptitle}{-2cm}   % This is your set screw

%%文档的题目、作者与日期
\author{王立庆（2021级数学与应用数学1班）}
\title{统计软件：教案}
%\date{\vspace{-3ex}}
\renewcommand{\today}{\number\year \,年 \number\month \,月 \number\day \,日}
%\date{2020 年 2 月 28 日}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{document}

\maketitle

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{abstract}
本文档将Dalgaard的《R语言统计入门》中的正文和习题编写成一系列练习题。
补充习题来自茆诗松的《概率论与数理统计教程》。
\end{abstract}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\setcounter{tocdepth}{1}
\renewcommand\contentsname{目录}
\tableofcontents

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
%\setcounter{section}{0}

\section{第1章：(1.1-1.2) R语言基础知识}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 学会安装R软件，安装程序包，查看数据。
\item 熟悉基本数据类型（向量、矩阵、数组、因子、列表、数据框）的操作。
\item 理解用R语言进行t检验的一个例子。
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 变量命名与赋值，向量运算，作图
\item 表达式，对象，向量，函数，矩阵，数组，因子，列表，数据框，索引，程序结构
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item 分别输入一个数值向量、字符向量和逻辑向量。
\item 判断你输入的这个数值向量的分量是否大于等于 25.
\item 举例说明 \verb+cat()+ 函数的用法。这个函数的全称是什么？如何输入换行符？
\item 举例说明生成向量的函数 \verb+c()+, \verb+seq()+ 和 \verb+rep()+. 这三个函数的全称是什么？
\item 输入一个方阵，并求它的行列式的值。
\item 对天气情况建立模型，可分为晴天、阴天和雨天等。定义一个因子变量，用来记录一星期中每天的天气状况。
%\item 用函数 \verb+list+ 创建一个列表，用来记录某班级的数分和高代成绩。
\item 用函数 \verb+data.frame()+ 创建一个数据框，用来记录一个班级的数分和高代成绩。
\item 在上一题的数据框里，选出单数学号的同学组成一个新的数据框。
\item 在上一题的数据框里，选出数分成绩不及格的同学组成一个新的数据框。
\item 载入 ISwR 包里的 energy 数据框，分别取出只含有 lean 和 obese 的数据。
\item 举例说明函数 \verb+apply()+, \verb+lapply()+, \verb+sapply()+ 和 \verb+tapply()+ 的用法。%它们之间有哪些差别？
\item 在上述记录某班级的数分和高代成绩的数据框里，用 \verb+sort()+ 和 \verb+order()+ 函数，按照总分从高到底排序。
%\item 如果两个向量包含缺失值，如何检验它们是否相同？
%\item 如果 \verb+x+ 是一个水平为 \verb+n+ 的因子，\verb+y+ 是一个长度为 \verb+n+ 的向量，计算 \verb+y[n]+ 的结果是什么？
%\item 载入 ISwR 包里的 juul 数据框，写一个逻辑表达式，用于选出年龄在7-14岁之间的女孩的数据。
%\item 
%\item 

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}
\begin{enumerate}

\item  阅读帮助文档，举例说明 library() 函数、 rnorm() 函数、sum() 函数、mean() 函数、sd() 函数、sqrt() 函数的用法。

\item  举例说明 plot() 函数、lines() 函数、points() 函数的用法，包括参数的设置。

\item  举例说明R语言里的表达式和对象的概念。举例说明如何调用函数和设置参数。

\item  举例说明 c() 函数、cat() 函数的用法。创建一个数值向量、一个字符向量和一个逻辑向量。什么是转义符？如何输入缺失值？

\item  举例说明 c() 函数、seq() 函数、rep() 函数的用法。使用 names() 函数给向量里的元素命名。

\item  举例说明 c()函数、matrix() 函数、cbind() 函数、rbind() 函数的用法。 输入一个矩阵，并改变它的列名称。

\item  举例说明因子的概念。使用 c() 函数、factor() 函数创建一个因子型向量，使用 levels() 方法改变因子的各个水平的名称。

%\item  对天气情况建立模型，分为晴天、阴天和雨天，定义一个因子变量。用 list() 函数创建一个列表，用来记录用来记录一星期中每天的最高气温和晴阴雨这三种天气情况。最后将这些数据保存在一个数据框里。

\item   举例说明列表的概念。使用 c() 函数、list() 函数创建一个列表。如何访问列表的各个组成部分？

\item  举例说明数据框的概念。使用 c() 函数、list() 函数、data.frame() 函数创建一个数据框。

\item  如何访问一个向量中的一些指定的元素？举例说明向量的 [ ] 的用法。如何访问数据框的行和列的元素？举例说明数据框的 [ ] 和 head() 函数、summary() 函数的用法。

\item  有哪些比较操作符？如何使用条件选择，选出一个向量中符合条件的所有元素？

\item  如何将一些分组数据保存为一个数据框？举例说明 split() 函数的用法。

\item  举例说明 lapply() 函数、replicate() 函数、tapply() 函数的用法。

\item  举例说明 sort() 函数、order() 函数的用法。

%----作业 1.1-1.5
\item  如果两个向量包含缺失值，如何检验这两个向量的分量都是对应相等的？

\item  如果 x 是一个水平为 n 的因子，y 是一个长度为 n 的向量，计算 y[n] 的结果是什么？

\item  载入 ISwR 包里的 juul 数据框，写一个逻辑表达式，用于选出年龄在7-14岁之间的女孩的数据。

\item  如果改变因子的水平数，并且给两个或更多的水平赋相同的值，会发生什么？

\item  设每次试验都生成20个指数分布（均值为2）的随机数并计算其均值。使用 replicate() 函数和 sapply() 函数将这个试验重复100遍。验证中心极限定理。

\end{enumerate}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第2章：(2.1-2.4) R语言环境}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 使用attach, detach, subset, transform和within函数操作数据框。
\item 使用plot函数画一元函数图像和散点图。
\item 使用read.table函数读入数据。
\item 编写循环语句(for, while, repeat, implicit)，编写和运行脚本程序。
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item  会话管理，作图系统，R编程，数据读写
\item  工作空间，脚本，帮助，载入包，流程控制，类函数，读写文件
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item 举例说明函数 \verb+ls()+ 和 \verb+rm()+ 的用途。
\item 将当前工作空间保存到一个文件，以便下次继续这次工作。
\item 记住学习R语言的开始：\verb+help.start()+. 从这里可以看到哪些类型的文档？%RTFM 是什么？
\item 用函数 \verb+library()+ 载入 ISwR 包，并用函数 \verb+attach()+调入 \verb+thuesen+ 数据框。 
\item 用函数 \verb+search()+ 查看当前搜索路径。
\item 举例说明函数 \verb+subset()+, \verb+transform()+ 和 \verb+within()+ 的使用方法。

\item 将数分和高代成绩作为横坐标和纵坐标，将某班级的数分高代成绩画成散点图。并加上标注。
\item 生成服从标准正态分布的 100 个随机数，画出直方图。叠加一个标准正态分布的密度函数图像。

\item 分别使用 \verb+while+ 语句，\verb+repeat+ 语句 和 \verb+for+ 语句，计算 $1+2+\cdots+100$ 的值。
\item 函数 \verb+t.test()+ 的输出结果是个列表。该列表包含了哪些内容？如何提取它们？

\item 使用 \verb+read.table()+ 函数，从本地磁盘读入一个存有数据的 \verb+.txt+ 文件。
\item 使用 \verb+edit()+ 函数，编辑上一题中的数据框。
\item 使用 \verb+write.table()+ 函数，将上述数据框存入一个本地磁盘的文件里。

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}
\begin{enumerate}

\item  举例说明 ls() 函数、rm() 函数、save.image() 函数的用途。

\item  举例说明 getwd() 函数、setwd() 函数、dir() 函数的使用方法。

\item  解释脚本编辑器的使用方法，使用 source() 函数运行脚本文件。

\item  介绍 help.start() 的输出结果。举例说明 help() 函数的使用方法，和在函数名前加‘?’作为前缀来调取帮助文档的使用方法。举例说明 help.search() 函数的使用方法。

\item  R的程序包一般包含哪些内容？如何安装程序包？举例说明如何使用 library() 函数载入程序包。

\item  举例说明 attach() 函数、detach() 函数、search() 函数、with() 函数的使用方法。什么是 GlobalEnv ? 

\item  举例说明 subset() 函数、transform() 函数、within() 函数的使用方法。

\item  举例说明如何画出一个标准的图形：在一个边长为2的正方形内画出 50 个均匀分布的散点，再加上各种标记。

\item  举例说明，如何首先绘制不包含任何元素的图形，然后逐步添加元素：使用 plot() 函数、points() 函数、axis() 函数、box() 函数、title() 函数等。使用 par() 函数来修饰图形的各种细节。

\item  使用 rnorm() 函数、hist() 函数、curve() 函数，dnorm() 函数、range() 函数，生成服从标准正态分布的 100 个随机数，画出直方图。叠加一个标准正态分布的密度函数图像。

%%2.3
\item  如何创建一个R函数？使用 while 语句、repeat 语句 和 for 语句编写R程序。

\item  什么是R语言的类？函数 t.test() 的输出结果是个列表。该列表包含了哪些内容？如何提取它们？

\item  使用 read.table() 函数从本地磁盘读入一个存有数据的 txt 文件和 csv 文件。解释参数 header, sep, na.strings 的不同取值的含义。使用 write.table() 函数将一个数据框里的数据保存为 txt 文件和 csv 文件。

\item  在向量的两个元素之间插入一个值，有哪些不同的方法？其中之一是使用 append() 函数。


\end{enumerate}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第3章：(3.1-3.5) 概率和分布}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 产生符合各种分布类型的随机数。
\item 计算各种分布的累计分布函数和密度函数。
\item 计算各种分布的分位数。
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 随机抽样，给定分布的随机抽样，排列组合的概率计算
\item 二项分布，泊松分布，均匀分布，正态分布
\item 累积分布函数，概率密度函数，分位数，随机数
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item 用 \verb+sample()+ 函数从1到45中随机取出3个数。分有放回和不放回的情形。

\item 用 \verb+sample()+ 函数得出10个服从下述分布的随机数：
\begin{table}[ht]\centering
\begin{tabular}{|c|c|c|c|c|}
\hline
$X$ & 1 & 2 & 3 & 4 \\
\hline
概率  & 0.1 & 0.2 & 0.3 & 0.4 \\
\hline
\end{tabular}
\end{table}

\item 将班级的39位同学按照3位或4位一组的方式分组，共有多少种可能？

\item 用R语言编程计算 $1+1+ \frac{1}{2!}+ \frac{1}{3!}+\cdots+\frac{1}{20!} $ 的值。

\item 设随机变量服从下述分布，离散的画出概率图，连续的画出密度函数图。
\begin{enumerate}
\item 二项分布 $b(45,0.2)$. 
\item 泊松分布 $P(5)$. 
\item 正态分布 $N(60,10^2)$. 
\item 指数分布 $Exp(5)$. 
\end{enumerate}

\item 查资料找到普通人的血压的分布。计算血压高于150的概率。

\end{enumerate}

\subsection{课后习题}

\begin{enumerate}

\item  举例说明 sample() 函数的使用方法，解释参数的含义。生成给定分布的随机数。

\item  使用 R 语言计算排列数和组合数。使用R语言编程计算 $1+1+ \frac{1}{2!}+ \frac{1}{3!}+\cdots+\frac{1}{20!} $ 的值。

\item 设随机变量服从下述分布，离散的画出概率图，连续的画出密度函数图。再画出分布函数的图像。
\begin{enumerate}
\item 二项分布 $b(45,0.2)$. 
\item 泊松分布 $P(5)$. 
\item 正态分布 $N(60,10^2)$. 
\item 指数分布 $Exp(5)$. 
\end{enumerate}

\item  计算下述事件的概率：
\begin{enumerate}
\item  一个均值是 132, 标准差是 13 的正态分布的随机变量，取值大于等于 160 的概率。
\item  一个参数为 $(20,0.5)$ 的二项分布的随机变量，取值大雨等于 16 的概率。
\end{enumerate}

\item  什么是分位数？计算标准正态分布的 $0.1, 0.05, 0.025$ 分位数。

\item  举例说明使用 R 语言生成复合给定分布的随机数。分别使用 rbinom() 函数和 sample() 函数模拟投币试验。

\item  计算下述事件的概率：
\begin{enumerate}
%\item  一个标准正态分布的随机变量，取值大于 3 的概率。
\item  一个标准正态分布的随机变量，取值大于 $1.5$ 的概率。
%\item  一个均值为 35, 标准差为 6 的正态分布的随机变量，取值大于 42 的概率。
\item  一个均值为 30, 标准差为 5 的正态分布的随机变量，取值大于 40 的概率。
%\item  一个参数为 $(10,0.8)$ 的随机变量，取值等于 10 的概率。
\item  一个参数为 $(12,0.6)$ 的随机变量，取值等于 8 的概率。
%\item  一个标准均匀分布的随机变量，取值小于 $0.9$ 的概率。
\item  一个标准均匀分布的随机变量，取值小于 $0.6$ 的概率。
%\item  一个自由度为 $2$ 的卡房分布的随机变量，取值大于 $6.5$ 的概率。
\item  一个自由度为 $5$ 的卡方分布的随机变量，取值大于 $5$ 的概率。
\end{enumerate}

\item  标准正态分布的四分位数分别是什么？十分位数分别是什么？即计算标准正态分布的 $0.25, 0.5, 0.75$ 分位数和 $0.1,0.2,\cdots,0.9$ 分位数。

\item  对于一种疾病，已知术后并发症的发生频率为 15\%. 一位外科医生建议了一种新的方法，测试了12位病人，都没有并发症。按照往常的并发症的发生频率，12位病人全部手术成功的概率是多少？

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第4章：(4.1-4.6) 描述性统计和图形}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 计算单组数据和分组数据的描述性统计量。
\item 画出直方图、经验分布函数、QQ图、箱式图、条形图、带状图、点图、饼图。
%\item 
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 单组数据的汇总统计量：均值，标准差，四分位数
\item 分布的图形展示：直方图，经验累积分布函数，QQ图，箱式图
\item 分组数据：汇总统计量 \verb+tapply+函数，作图：直方图，并联箱式图，带状图
\item 表格：创建表格，边际表格，相对频数，图形显示
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item 生成服从连续区间 $[0,100]$ 上的均匀分布的随机数40个。
\begin{enumerate}
\item 计算其均值、方差、标准差、中位数、四分位数、最小值和最大值。
\item 画出这个样本的三种直方图、箱式图、和经验累计分布函数。
\item 用QQ图来检查这个样本与正态分布的差别。
\end{enumerate}

\item 载入 \verb+ISwR+ 包，载入数据框 \verb+red.cell.folate+. 使用 \verb+tapply()+ 函数，按 \verb+ventilation+ 分组计算数据 \verb+folate+ 的均值、标准差、和样本容量。

\item 载入 \verb+ISwR+ 包中的数据框 \verb+energy+. 其中的数据 \verb+expend+ 按 \verb+stature+ 分组。
\begin{enumerate}
\item  作出分组数据 \verb+expend+ 的直方图。 
\item  作出分组数据 \verb+expend+ 的并联箱式图和带状图。
\end{enumerate}

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}

\begin{enumerate}

%\item  生成服从连续区间 $[0,100]$ 上的均匀分布的随机数40个。
\item  生成服从给定分布的一些随机数。
\begin{enumerate}
\item 计算其均值、方差、标准差、中位数、四分位数、最小值和最大值。
\item 画出这个样本的三种直方图、箱式图、和经验累计分布函数。
\item 用QQ图来检查这个样本与正态分布的差别。
\end{enumerate}

\item  研究 ISwR 程序包的 red.cell.folate 数据框，解释这个分组数据的含义。使用 tapply() 函数，按 ventilation 分组计算数据 folate 的均值、标准差、和样本容量。

\item  研究 ISwR 程序包的 energy 数据框，其中的数据 expend 按 stature 分组。分组作出数据 expend 的直方图、并联箱式图和带状图。

\item  使用 matrix() 函数输入一个表格，并改变行和列的名称。使用 as.table() 函数和 as.data.frame() 函数将一个表格转化成一个数据框。

\item  研究 ISwR 程序包的 juul 数据框和 stroke数据框，解释 table() 函数、xtabs() 函数、ftable() 函数、t() 函数、margin.table() 函数、prop.table() 函数的使用方法。生成边际表格和相对频数表格。

\item  研究 ISwR 程序包的 caff.marital 数据，使用 barplot() 函数画出条形图，解释参数 color, beside, legend.text 的不同取值的含义。使用 dotchart() 函数画出点图。使用 pie() 函数画出饼图。

\item  研究不同类型的线和点图，包括图形的符号、线型、线宽、颜色等。如何避免画图的线出现在点图的符号内？

\item  解释分位数的概念和 QQ 图的含义。如何把通过 qqnorm() 函数得到的两个图放在同一个图形里？

\item  研究 ISwR 程序包的 react 数据框，使用 hist() 函数画出直方图，这个图有什么缺陷？使用 MASS 程序包里的 truehist() 函数画出直方图。

\item  从均匀分布的总体里生成 10 个随机数，得到样本 $z$. 对于每个实数 $x\in [0,1]$, $\text{quantile}(z,x)$ 计算了样本 $z$ 的 $x$ 分位数。研究 quantile() 函数。画出函数 $x\mapsto \text{quantile}(z,x)$ 的图像。

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第5章：(5.1-5.7) 单样本与双样本检验}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 学会单样本的t检验和符号秩检验。
\item 学会两样本的t检验和符号秩检验。
%\item 学会配对的t检验和符号秩检验。
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 三种情形的样本：单样本，双样本，配对样本
\item 两种检验方法：t检验，Wilcoxon符号秩检验
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item 
设数据 $X_1,\cdots,X_n$ 来自正态分布 $N(\mu,\sigma^2)$. 
\begin{enumerate}
\item 证明统计量 $U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 服从标准正态分布 $N(0,1)$.
\item 证明统计量 $T=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ 服从分布 $t(n-1)$.
\item 比较标准正态分布与 $t$ 分布的异同。
\end{enumerate}

\item 
设数据 $X_1,\cdots,X_n$ 来自某未知总体。
\begin{enumerate}
\item 符号秩检验可以用来检验什么？
\item Wilcoxon 符号秩检验的统计量是怎么构造的？
\item 找出该统计量的 $p$ 值的计算方法。
\end{enumerate}

\item 
载入 ISwR 包里的 \verb+intake+ 数据框。假设其第一列数据来自正态分布。
\begin{enumerate}
\item 它的均值在 $t$ 检验下是否显著地不等于7725 ？解释检验的结果。
\item 它的均值在 Wilcoxon 符号秩检验下是否显著地不等于7725 ？
\end{enumerate}

\item 
设数据 $X_1,\cdots,X_m$ 来自正态分布 $N(\mu_1,\sigma_1^2)$, 数据 $Y_1,\cdots,Y_n$ 来自另一个独立的正态分布 $N(\mu_2,\sigma_2^2)$. 
\begin{enumerate}
\item 证明统计量 $U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{SEDM}$ 服从标准正态分布 $N(0,1)$, 
这里 $SEDM=\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}$.
\item 设 $\sigma_1^2=\sigma_2^2$ 但未知。 证明统计量 $T=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{SEDM}$ 服从分布 $t(m+n-2)$, 
这里 $SEDM=S_\omega\sqrt{\frac{1}{m}+\frac{1}{n}}$, 其中 $S_\omega^2=\frac{(m-1)S_x^2+(n-1)S_y^2}{m+n-2}$.
\end{enumerate}

\item 
载入 ISwR 包里的 \verb+energy+ 数据框。数据 \verb+expend+ 按因子 \verb+stature+ 的不同水平分成了两组。假设这两组 \verb+expend+ 数据来自两个相互独立的正态分布。
\begin{enumerate}
\item 这两组数据的方差是否显著地不相等？
\item 这两组数据的均值在 $t$ 检验下是否显著地不相等？
\item 这两组数据的均值在 Wilcoxon 符号秩检验下是否显著地不相等？
\end{enumerate}

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}
\begin{enumerate}

\item  设有来自正态总体 $N(\mu,\sigma^2)$ 的简单随机样本 $(X_1,\cdots,X_n)$. 
\begin{enumerate}
\item  均值 $\bar{X}$ 的标准误是多少？
\item 证明统计量 $U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 服从标准正态分布 $N(0,1)$.
\item 证明统计量 $T=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ 服从分布 $t(n-1)$.
\item 比较标准正态分布与 t 分布的异同。
\end{enumerate}

\item  研究 ISwR 程序包里的 intake 数据框。假设其第一列数据来自正态分布 $N(\mu,\sigma^2)$. 
\begin{enumerate}
\item  均值差 $\bar{X}-\bar{Y}$ 的标准误是多少？
\item 总体均值 $\mu$ 在 t 检验下是否显著地不等于7725 ？解释检验的结果。
\item 总体均值 $\mu$ 在 Wilcoxon 符号秩检验下是否显著地不等于7725 ？解释检验的结果。
\end{enumerate}

\item  设数据 $(X_1,\cdots,X_m)$ 来自正态总体 $N(\mu_1,\sigma_1^2)$, 数据 $(Y_1,\cdots,Y_n)$ 来自正态总体 $N(\mu_2,\sigma_2^2)$. 设这两个正态总体是相互独立的。
\begin{enumerate}

\item 证明统计量 $U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\text{SEDM}}$ 服从标准正态分布 $N(0,1)$, 
这里 $\text{SEDM} = \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}$.
\item 设 $\sigma_1^2=\sigma_2^2$ 但未知。 证明统计量 $T=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\text{SEDM}}$ 服从分布 $t(m+n-2)$, 
这里 $\text{SEDM} = S_\omega\sqrt{\frac{1}{m}+\frac{1}{n}}$, 其中 $S_\omega^2=\frac{(m-1)S_x^2+(n-1)S_y^2}{m+n-2}$.
\end{enumerate}

\item  研究 ISwR 程序包里的 energy 数据框。数据 expend 按因子 stature 的不同水平分成了两组。假设这两组 expend 数据来自两个相互独立的正态分布。
\begin{enumerate}
\item 这两组数据的方差是否显著不相等？
\item 这两组数据的均值在 t 检验下是否显著不相等？
\item 这两组数据的均值在 Wilcoxon 符号秩检验下是否显著不相等？
\end{enumerate}

\item  研究 ISwR 程序包里的 intake 数据框。
\begin{enumerate}
\item  什么是配对的样本数据？画出 intake 数据的 Bland-Altman 图。
\item  这个数据是否适合配对 t 检验？
\item  每组配对的数据在 t 检验下是否显著不相等？
\item  每组配对的数据在 Wilcoxon 符号秩检验下是否显著不相等？
\end{enumerate}

\item  研究 ISwR 程序包里的 react 数据。
\begin{enumerate}
\item  这些数据是否服从正态分布？
\item  这些数据的均值在 t 检验下是否显著不等于零？
\end{enumerate}

\item  研究 ISwR 程序包里的 vitcap 数据。
\begin{enumerate}
\item  两组肺活量的均值在 t 检验下是否显著不相等？
\item  计算两组肺活量的均值差的 99\% 的置信区间。
\end{enumerate}

\item  使用非参数方法，研究 ISwR 程序包里的 react 数据和 vitcap 数据。

\item  函数 shapiro.test() 的原理是什么？使用这个函数对 react 数据进行检验。使用这个函数能测出异常值吗？

\item  研究 ISwR 程序包里的 ashina 数据。分析药物的效果和时间先后的效果。

\item  
\begin{enumerate}
\item  生成25个正态分布的随机数，并进行 t 检验。记录检验的 $p$ 值。
\item  生成25个自由度为2的 t 分布的随机数，并进行 t 检验。记录检验的 $p$ 值。
\item  生成25个均值为1的指数分布的随机数，并进行 t 检验。记录检验的 $p$ 值。
\item  编程自动实现将上述试验重复10遍。
\end{enumerate}
%Perform 10 one-sample t tests on simulated normally distributed data sets of 25 observations each. Repeat the experiment, but instead simulate samples from a different distribution; try the t distribution with 2 degrees of freedom and the exponential distribution (in the latter case, test for the mean being equal to 1). Can you find a way to automate this so that you can have a larger number of replications?

\item %2021年考试题目2：
设某班的测试成绩如下。设显著性水平为 0.05, 使用 t 检验，推断平均成绩是否等于70分。
\begin{table}[ht!]
\centering
\begin{tabular}{|c|c|c|c|c|c|c|c|c|c|c|}\hline
学号 &1&2&3&4&5&6&7&8&9&10\\ \hline
成绩 & 70 &72 & 57 & 59 & 85 & 63 & 56 & 62 & 80 & 89 \\ \hline
\end{tabular}
\end{table}

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第6章：(6.1-6.4) 回归与相关性}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 理解线性回归模型的基本知识，使用lm函数进行一元线性回归，解释输出的结果。
\item 学会计算三种相关系数。
%\item 
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 一元线性回归：模型方程，参数，显著性检验，预测带，置信带
\item 三种相关系数的计算
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}

\begin{enumerate}
\item （参考茆诗松书本(第二版)第448页 8.4 节）设有自变量 $x$ 和因变量 $y$ 的观测数据 $x_1,\cdots, x_n$ 和 $y_1,\cdots, y_n$. 在知道 $x$ 的值后，$y$ 的值是一个随机变量 $Y$, 其均值写成 $x$ 的函数为 
\[ f(x)=E(Y|x)=\int_{-\infty}^{\infty} yp(y|x)dx. \] 
这称为 $y$ 关于 $x$ 的回归函数。回归方程的一般形式是 $y=f(x)+\varepsilon$. 
\begin{enumerate}
\item 一元线性回归模型的形式如下，该模型的参数是哪些？如何估计参数？
 \[ y_i=\alpha+\beta x_i+\varepsilon_i, \,\,\, \varepsilon\sim N(0,\sigma^2). \]
\item 如果 $\beta$ 的真实值不为零，则称该模型是显著的。如何检验假设 
\[ H_0: \beta=0, \,\, \mathrm{v.s.} \,\,  H_1: \beta\neq 0 \,\,? \] 
\item 写出统计量 $R^2$ 和 $R^2_{\mathrm{adj}}$ 的计算公式。它们的作用是什么？
\item 给出预测带和置信带的定义，解释它们的差别。
\end{enumerate}

\item （参考茆诗松书本(第二版)450页例8.4.1）由专业知识知道，合金的强度 $y$ （单位：$10^7$Pa）与合金中碳的含量 $x$ （单位：\%）有关。
现收集到下述数据，
\begin{table}[ht]\footnotesize\centering
\begin{tabular}{|c|c|c|c|c|c|c|c|c|c|c|c|c|}\hline
序号 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \\
\hline
$x$  &0.10 &0.11 &0.12 &0.13 &0.14 &0.15& 0.16 & 0.17 & 0.18 & 0.20 & 0.21 & 0.23  \\
\hline
$y$  &42.0 &43.0 &45.0 &45.0 &45.0 &47.5 &49.0 &53.0 &50.0 &55.0 &55.0 &60.0  \\ \hline
\end{tabular}
\end{table}

\begin{enumerate}
\item  将数据存入一个数据框。画出散点图，求出合金强度与碳含量的线性回归方程。
\item  计算上述回归方程的方差分析表。判断回归方程是否显著。
\item  画出预测带和置信带。现设碳含量为 $x_0=0.16$, 求合金强度 $y_0$ 的0.95预测区间和 $E(y_0)$ 的0.95置信区间。
\end{enumerate}

\item 设有两组数据 $x_1,\cdots, x_n$ 和 $y_1,\cdots, y_n$. 分别写出 Pearson 相关系数、Spearman 相关系数、和Kendall 相关系数的计算公式。

%\item 
%（参考茆诗松书本464页例8.4.5）观测某种动物18只，测得其重量和体积如表格。
%\begin{enumerate}
%\item 计算这种动物的体积与重量的回归方程。
%\item 计算方差分析表，判断回归方程的显著性。
%\item 如果测得某这种动物的重量为 17.6 公斤，估计其体积。
%\end{enumerate}


\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}
%P100: 6.1-6.4; 茆诗松书本(第二版)467页，习题8.4\# 5, 6, 11.

\begin{enumerate}

\item  （参考茆诗松书本第8.4节）设有自变量 $x$ 和因变量 $y$ 的观测数据 $x_1,\cdots, x_n$ 和 $y_1,\cdots, y_n$. 在知道 $x$ 的值后，$y$ 的值是一个随机变量 $Y$, 其均值写成 $x$ 的函数为 
\[ f(x)=E(Y|x)=\int_{-\infty}^{\infty} yp(y|x)dx. \] 
这称为 $y$ 关于 $x$ 的回归函数。回归方程的一般形式是 $y=f(x)+\varepsilon$. 
\begin{enumerate}
\item 一元线性回归模型的形式如下，该模型的参数是哪些？如何估计参数？
 \[ y_i=\alpha+\beta x_i+\varepsilon_i, \,\,\, \varepsilon\sim N(0,\sigma^2). \]
\item 如果 $\beta$ 的真实值不为零，则称该模型是显著的。如何检验假设 
\[ H_0: \beta=0, \,\, \mathrm{v.s.} \,\,  H_1: \beta\neq 0 \,\,? \] 
\item 写出统计量 $R^2$ 和 $R^2_{\mathrm{adj}}$ 的计算公式。它们的作用是什么？
\item 给出预测带和置信带的定义，解释它们的差别。
\end{enumerate}

\item  研究 ISwR 程序包里的 thuesen 数据框。
\begin{enumerate}
\item  使用 lm() 函数进行线性回归分析。解释 lm() 函数的输出结果。
\item  使用 lm()函数后得到一个模型对象，对其使用 summary() 函数后，解释输出的结果。内容包括模型公式、残差、参数估计和检验、标准误的估计、R方和调整的R方、模型的检验和p值。
\item  计算回归值，画出散点图和回归线。使用 QQ 图来检验残差是否服从正态分布。
\item  画出预测带和置信带。
\end{enumerate}

\item  （参考茆诗松书本第8.4节）由专业知识知道，合金的强度 $y$ （单位：$10^7$Pa）与合金中碳的含量 $x$ （单位：\%）有关。
现收集到下述数据，
\begin{table}[ht] \footnotesize\centering
\begin{tabular}{|c|c|c|c|c|c|c|c|c|c|c|c|c|}\hline
序号 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \\
\hline
$x$  &0.10 &0.11 &0.12 &0.13 &0.14 &0.15& 0.16 & 0.17 & 0.18 & 0.20 & 0.21 & 0.23  \\
\hline
$y$  &42.0 &43.0 &45.0 &45.0 &45.0 &47.5 &49.0 &53.0 &50.0 &55.0 &55.0 &60.0  \\ \hline
\end{tabular}
\end{table}

\begin{enumerate}
\item  将数据存入一个数据框。画出散点图，求出合金强度与碳含量的线性回归方程。
\item  计算上述回归方程的方差分析表。判断回归方程是否显著。
\item  画出预测带和置信带。现设碳含量为 $x_0=0.16$, 求合金强度 $y_0$ 的0.95预测区间和 $E(y_0)$ 的0.95置信区间。
\end{enumerate}

\item  什么是两个随机变量之间的相关性？研究 ISwR 程序包里的 thuesen 数据框。
\begin{enumerate}
\item  设有两组数据 $x_1,\cdots, x_n$ 和 $y_1,\cdots, y_n$. 分别写出 Pearson 相关系数、Spearman 相关系数、和Kendall 相关系数的计算公式。
\item  使用 cor() 函数计算 thuesen 数据框里的两列数据的 Pearson 相关系数。
\item  使用 cor.test() 函数检验这两列数据的 Pearson 相关系数是否显著不等于零。
\item  使用 cor.test() 函数检验这两列数据的 Spearman 相关系数是否显著不等于零。
\item  使用 cor.test() 函数检验这两列数据的 Kendall 相关系数是否显著不等于零。
\end{enumerate}

\item  （参考茆诗松书本第8.4节）观测某种动物18只，测得其重量和体积如表格。
\begin{enumerate}
\item 计算这种动物的体积与重量的回归方程。
\item 计算方差分析表，判断回归方程的显著性。
\item 如果测得某这种动物的重量为 17.6 公斤，估计其体积。
\end{enumerate}

\item  研究 ISwR 程序包里的 rmr 数据框。
\begin{enumerate}
\item  画出代谢率关于体重的散点图。求出一个线性回归模型。
\item  根据这个模型，体重70公斤的代谢率是多少？
\item  计算这条回归线的斜率的 95\% 的置信区间。
\end{enumerate}
%With the rmr data set, plot metabolic rate versus body weight. Fit a linear regression model to the relation. According to the fitted model, what is the predicted metabolic rate for a body weight of 70 kg? Give a 95% confidence interval for the slope of the line.

\item  研究 ISwR 程序包里的 juul 数据框。
\begin{enumerate}
\item  找出25岁以上的人群，另存为一个数据框。
\item  以年龄为自变量， IGF-I生长因子的平方根为应变量，求出一个线性回归模型。
\end{enumerate}
%In the juul data set, fit a linear regression model for the square root of the IGF-I concentration versus age to the group of subjects over 25 years old.

\item  研究 ISwR 程序包里的 malaria 数据框。
以年龄为自变量， 变量 antibody level 的对数为应变量，求出一个线性回归模型。
%In the malaria data set, analyze the log-transformed antibody level versus age. Make a plot of the relation. Do you notice anything peculiar?

\item  按照下述方法生成服从二维正态分布的随机数。
\begin{enumerate}
\item  生成标准正态分布的随机数 $x_i$.
\item  固定参数 $\rho$, 生成正态分布 $N(\rho x_i, 1-\rho^2)$ 的随机数 $y_i$. 
\item  画出 $\{ (x_i,y_i)\mid i=1,\cdots,n \}$ 的散点图。
\item  计算数据 $(x_1,\cdots,x_n)$ 和数据 $(y_1,\cdots,y_n)$ 的 Spearman 相关系数和 Kendall 等级相关系数。 
\item  如何检验这些数据是否服从二维正态分布？
\end{enumerate}

\end{enumerate}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第7章：(7.1-7.5) 方差分析与Kruskal-Wallis检验}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 理解方差分析的基本理论知识，看懂方差分析表。
\item 学会用参数方法和非参数方法进行单因素和双因素的方差分析。
%\item 
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 单因素方差分析：参数法、Kruskal-Wallis 检验，数据：\verb+red.cell.folate+
\item 双因素方差分析：参数法、Friedman 检验，数据：\verb+heart.rate+
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item （单因素方差分析）设 $x_{ij}$ 表示第 $i$ 组的第 $j$ 个观测值，其中 $1\le i\le k$, $1\le j\le n$.  记 $N=kn$. 记 $\bar{x}_{i}$ 为第 $i$ 组的均值，$\bar{x}$ 为全局均值。写出组内方差 $SSD_W$、组间方差 $SSD_B$ 和全局方差 $SSD_{total}$ 的计算公式。证明分解公式：
\[ SSD_B+SSD_W = SSD_{total} \]

\item 为检验组间差异是否显著，构造如下统计量，说明该假设检验的推理过程。
\[ F= \frac{MS_B}{MS_W} = \frac{SSD_B/(k-1)}{SSD_W/(N-k)} \]

\item 考虑数据框 \verb+red.cell.folate+ 中的按 \verb+ventilation+ 分组的 \verb+folate+ 数据。
\begin{enumerate}
\item 用方差分析判断组间差异是否显著。求出 $F$ 统计值和检验的 $p$ 值。
\item 用 \verb+pairwise.t.test+ 进行成对比较。
\item 用 \verb+stripchart+ 来展示这个分组数据。
\item 试用 Kruskal-Wallis 的秩和检验。研究该检验的统计量和推断原理。
\end{enumerate}

\item （双因素方差分析）设 $x_{ij}$ 是一个 $m\times n$ 表的第 $i$ 行和第 $j$ 列的观测值。写出行间方差 $SSD_R$、列间方差 $SSD_C$、和残差方差 $SSD_{res}$ 的计算公式。

\item 考虑数据框 \verb+heart.rate+ 中的变量 \verb+hr+, \verb+subj+ 和 \verb+time+ 的含义。
\begin{enumerate}
\item 用双因素方差分析，检验不同的病人和不同的时间这两个因素对心率的影响。
\item 用 \verb+interaction.plot+ 画出这些数据的意大利面图。
\item 试用 Friedman 检验推断不同时间对心率的影响。研究该检验的统计量和推断原理。
\end{enumerate}

\item 载入数据框 \verb+thuesen+, 对 \verb+short.velocity+ 用 \verb+blood.glucose+ 作回归分析，解释方差分析表。对该回归模型是否显著作出推断。

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}
%P115: 7.1-7.4.
\begin{enumerate}

\item  （单因素方差分析）设 $x_{ij}$ 表示第 $i$ 组的第 $j$ 个观测值，其中 $1\le i\le k$, $1\le j\le n$.  记 $N=kn$. 记 $\bar{x}_{i}$ 为第 $i$ 组的均值，$\bar{x}$ 为全局均值。写出组内方差 $\text{SSD}_W$、组间方差 $\text{SSD}_B$ 和全局方差 $\text{SSD}_{total}$ 的计算公式。证明分解公式：$ \text{SSD}_B+\text{SSD}_W = \text{SSD}_{total}$. 

\item 为检验组间差异是否显著，构造如下统计量，解释该假设检验的推理过程。
\[ F= \frac{\text{MS}_B}{\text{MS}_W} = \frac{\text{SSD}_B/(k-1)}{\text{SSD}_W/(N-k)}. \]

\item  研究 ISwR 程序包里的 red.cell.folate 数据框，其中的 folate 数据是按 ventilation 分组的。
\begin{enumerate}
\item  用 lm() 函数对这个分组数据进行回归分析，解释得到的回归系数的含义。
\item  用 anova() 函数进行方差分析，判断组间差异是否显著。
\item  用 pairwise.t.test() 函数对这个分组数据进行成对比较。
\item  用 stripchart() 函数来画图展示这个分组数据。
\end{enumerate}

\item  研究 ISwR 程序包里的 red.cell.folate 数据框，其中的 folate 数据是按 ventilation 分组的。
\begin{enumerate}
\item  用 kruskal.test() 函数对这个分组数据进行 KW 秩和检验。
\item  研究 Kruskal-Wallis 检验的统计量和推断原理。
\end{enumerate}

\item  研究 ISwR 程序包里的 juul 数据框，其中的 igf1 数据是按 tanner 分组的。
\begin{enumerate}
\item  将 tanner 数据从数值型改为因子型。
\item  用 anova() 函数进行方差分析，判断组间差异是否显著。
\end{enumerate}

\item  （双因素方差分析）设 $x_{ij}$ 是一个 $m\times n$ 表的第 $i$ 行和第 $j$ 列的观测值。写出行间方差 $\text{SSD}_R$、列间方差 $\text{SSD}_C$、和残差方差 $\text{SSD}_{res}$ 的计算公式。这些平方和的自由度分别是多少？

\item  研究 ISwR 程序包里的 heart.rate 数据框。
\begin{enumerate}
\item  用 gl() 函数为这个数据框背后的平衡试验生成因子型分类数据。
\item  用 lm() 函数和anova() 函数进行双因素方差分析，检验不同的病人和不同的时间者两个因素对心率的影响。
\item  用 interaction.plot() 函数画出这些数据的意大利面图。
\item  试用 Friedman 检验推断不同时间对心率的影响。研究该检验的统计量和推断原理。
\end{enumerate}

\item  研究 ISwR 程序包里的 thuesen 数据框。以 short.velocity 为应变量，以 blood.glucose 为自变量，进行回归分析和方差分析，解释方差分析表的各项结论。

\item  研究 ISwR 程序包里的 zelazo 数据。
\begin{enumerate}
\item  将这个分组数据保存为一个数据框。
\item  使用 lm() 函数进行回归分析。
\item  使用 t.test() 函数检验第一组和第四组的均值是否有显著差异。
\item  使用 t.test() 函数检验第一组和其余组的合并组的均值是否有显著差异。
\item  使用非参数方法进行均值差的检验。
\end{enumerate}
%The zelazo data are in the form of a list of vectors, one for each of the four groups. Convert the data to a form suitable for the use of lm, and calculate the relevant test. Consider t tests comparing selected subgroups or obtained by combining groups.

\item  研究 ISwR 程序包里的 lung 数据。对六个人分别用三种方法测量肺活量。三种测量方法的结果是否显著不同？哪个组的数据显著不同？使用参数方法和非参数方法分别进行检验。
%In the lung data, do the three measurement methods give systematically different results? If so, which ones appear to be different?

%Repeat the previous exercises using the zelazo and lung data with the relevant nonparametric tests.

\item  研究 ISwR 程序包里的 juul 数据。
\begin{enumerate}
\item  生长因子数据 igf1 是否服从正态分布？是否左右对称？
\item  根据 tanner 的取值不同，对 igf1 进行分组，%使用 bartlett.test() 函数，或直接计算每组的方差，
检验各组的方差是否有显著差异。
\item  使用 Welch 的 oneway.test() 函数，检验各组的 igf1 数据的均值是否有显著差异。
\item  使用求对数或平方根的方法，对 igf1 数据进行变换，检验其均值是否有显著差异。
\item  分析 tanner 和 age 这两个因素对 igf1 数据的影响。
\end{enumerate}

%The igf1 variable in the juul data set is arguably skewed and has different variances across Tanner groups. Try to compensate for this using logarithmic and square-root transformations, and use the Welch test. However, the analysis is still problematic — why?

\item %题目10：
研究 ISwR 程序包里的 coking 数据，描述了不同炉宽和不同炉温的条件下，从煤炭炼制焦炭所需要的时间。
使用双因素方差分析，研究炉温和炉宽者两个因素对炼焦事件的作用是否显著。

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第8章：(8.1-8.4) 表格数据}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
{\color{red}
\subsection{学习目标}
\begin{itemize}
\item 理解单比例检验和双比例检验的统计量的基本理论。理解列联表的独立性检验的基本理论。
\item 学会使用prop.test, fisher.test, binom.test函数进行比例检验。
%\item 
\end{itemize}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{内容提要}
\begin{itemize}
\item 单比例的检验，双比例的检验，多比例的检验
\item 列联表的独立性检验
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{例题讲解}
\begin{enumerate}
\item （单比例）设每次试验的成功概率为参数 $p$. 设在 $N$ 次试验中一共成功了 $X$ 次。定义统计量 $U$, 对假设 $H_0: p=p_0$ 作检验，写出该假设检验的过程。
%\[ U=\frac{X-Np_0}{\sqrt{NP_0(1-p_0)}} \]

\item 设在 215 名病人中有 39 名有哮喘。对哮喘概率的假设 $p_0=0.15$ 作检验。
\begin{enumerate}
\item 使用函数 \verb+prop.test+.
\item 使用函数 \verb+binom.test+.
\end{enumerate}

\item （两个独立的比例）考虑两个比例的差 $d=\frac{X_1}{N_1}-\frac{X_2}{N_2}$. 
设 $X_1$ 与 $X_2$ 分别服从二项分布 $b(N_1,p)$ 与 $b(N_2,p)$. 定义统计量 $U$, 近似于服从标准正态分布。写出该假设检验的过程。
%\[ U = \frac{\frac{X_1}{N_1}-\frac{X_2}{N_2}}{\sqrt{(\frac{1}{N_1}+\frac{1}{N_2})p(1-p)}} \]

\item 考虑 Lewitt 与 Machin 的例子，研究比例 $\frac{9}{12}$ 和 $\frac{4}{13}$ 的差异是否显著。
\begin{enumerate}
\item 使用函数 \verb+prop.test+.
\item 使用函数 \verb+fisher.test+.
\item 使用函数 \verb+chisq.test+.
\end{enumerate}

\item 对下述数据进行多比例检验。讨论趋势。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|c|c|} \hline
是否手术产子$\backslash$ 鞋码大小 & 至多4码 & 4码 & 4.5码 & 5码 & 5.5码 & 至少6码 \\ \hline
是的个数 & 5 & 7 & 6 & 7 & 8 & 10 \\ \hline
不是的个数 & 17 & 28 & 36 & 41 & 46 & 140  \\ \hline
\end{tabular}
\end{table}

\item 检验下述表格的行列的独立性。即检验婚姻状况是否会影响喝咖啡的习惯。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|} \hline
婚姻状况$\backslash$ 消费咖啡数量 & 0 & 1-150 & 151-300 & 超过 300 \\ \hline
已婚个数 & 652 & 1537 & 598 & 242 \\ \hline
离异个数 & 36 & 46 & 38 & 21  \\ \hline
单身个数 & 218 & 327 & 106 & 67 \\ \hline
\end{tabular}
\end{table}

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{课后习题}
%P124: 8.1-8.5.

\begin{enumerate}

\item （单比例）设每次试验的成功概率为参数 $p$. 设在 $N$ 次试验中一共成功了 $X$ 次。
\begin{enumerate}
\item  解释二项分布的概念。
\item  对零假设 $H_0: p=p_0$ 进行检验，写出该假设检验的过程。定义统计量 $$U= \frac{X-Np_0}{\sqrt{Np_0(1-p_0)}}.$$ 
\item  解释卡方分布的概念。

\end{enumerate}

\item  设在 215 名病人中有 39 名有哮喘。对哮喘概率的假设 $p_0=0.15$ 作检验。
\begin{enumerate}
\item 使用 prop.test() 函数。
\item 使用 binom.test() 函数。
\end{enumerate}

\item （两个独立的比例）设 $X_1$ 与 $X_2$ 分别服从二项分布 $b(N_1,p_1)$ 与 $b(N_2,p_2)$. 
考虑两个比例的差 $$d=\frac{X_1}{N_1}-\frac{X_2}{N_2}.$$ 
\begin{enumerate}
\item  记 $\hat{p}=\frac{x_1+x_2}{N_1+N_2}$, 定义统计量 $U$ 如下，研究 $U$ 是否近似于服从标准正态分布，
 $$U = \frac{\frac{X_1}{N_1}-\frac{X_2}{N_2}}{\sqrt{(\frac{1}{N_1}+\frac{1}{N_2})\hat{p}(1-\hat{p})}}, $$ 

\item  对零假设 $H_0: p_1=p_2$ 进行检验，写出该假设检验的过程。
\end{enumerate}

\item  考虑 Lewitt 与 Machin 的例子，研究比例 $\frac{9}{12}$ 和 $\frac{4}{13}$ 的差异是否显著。
\begin{enumerate}
\item 使用 prop.test() 函数。
\item 使用 fisher.test() 函数。
\item 使用 chisq.test() 函数。
\end{enumerate}

\item  对下述数据进行多比例检验。讨论趋势。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|c|c|} \hline
是否手术产子$\backslash$ 鞋码大小 & 至多4码 & 4码 & 4.5码 & 5码 & 5.5码 & 至少6码 \\ \hline
是的个数 & 5 & 7 & 6 & 7 & 8 & 10 \\ \hline
不是的个数 & 17 & 28 & 36 & 41 & 46 & 140  \\ \hline
\end{tabular}
\end{table}

\item  对于行与列都多于两个类的表格数据，如何检验假设``行与列之间没有关系''？
%\begin{table}[ht]\centering
%\begin{tabular}{|cccc|c|} \hline
%$n_{11}$ & $n_{12}$ & $\cdots$ & $n_{1c}$ & $n_{1\cdot}$ \\  
%$n_{21}$ & $n_{22}$ & $\cdots$ & $n_{2c}$ & $n_{2\cdot}$ \\  
%$\vdots$ & $\vdots$ &   & $\vdots$ & $\vdots$ \\  
%$n_{r1}$ & $n_{r2}$ & $\cdots$ & $n_{rc}$ & $n_{r\cdot}$ \\ \hline 
%$n_{\cdot 1}$ & $n_{\cdot 2}$ & $\cdots$ & $n_{\cdot c}$ & $n_{\cdot\cdot}$ \\ \hline 
%\end{tabular}
%\end{table}

\item  检验下述表格的行列的独立性。即检验婚姻状况是否会影响喝咖啡的习惯。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|} \hline
婚姻状况$\backslash$ 消费咖啡数量 & 0 & 1-150 & 151-300 & 超过 300 \\ \hline
已婚个数 & 652 & 1537 & 598 & 242 \\ \hline
离异个数 & 36 & 46 & 38 & 21  \\ \hline
单身个数 & 218 & 327 & 106 & 67 \\ \hline
\end{tabular}
\end{table}
\begin{enumerate}
\item  按定义计算卡方统计量，并计算检验的 $p$ 值。
\item  用 chisq.test() 函数进行假设检验。
\end{enumerate}

\item  设某个传统手术方法的并发症的概率是 $p_0=0.2$. 现有一个医生使用新的手术方法，连续10次手术都没有发生并发症。
\begin{enumerate}
\item  通过二项分布对新方法的并发症的概率 $p$ 进行单侧的假设检验，
$$H_0: p\ge p_0, \,\,\text{v.s.}\,\, H_1: p<p_0 .$$
\item  设显著性水平 $\alpha=0.05$. 为拒绝上述零假设，需要多大的样本容量？
\end{enumerate}

%Reconsider the situation of Exercise 3.3, where 10 consecutive pa- tients had operations without complications and the expected rate was 20\%. Calculate the relevant one-sided test in the binomial distribution. How large a sample (still with zero complications) would be necessary to obtain statistical significance?

\item  在落基山斑点热事件中，西部地区的747个病例中有210个死亡，东部的661个病例中有122个死亡。这两个比例的差异在统计上是显著的吗？
%In 747 cases of “Rocky Mountain spotted fever” from the western United States, 210 patients died. Out of 661 cases from the eastern United States, 122 died. Is the difference statistically significant?

\item  现有治疗胃溃疡的两种药物的数据如下，
%Two drugs for the treatment of peptic ulcer were compared (Campbell and Machin, 1993, p. 72). The results were as follows:
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|} \hline
%& Healed & Not Healed & Total \\ \hline 
药物 & 治愈 & 未治愈 & 总数 \\ \hline 
Pirenzepine & 23 & 7 & 30 \\ \hline 
Trithiozine & 18 & 13 & 31 \\ \hline 
总数 & 41 & 20 & 61 \\ \hline 
\end{tabular}
\end{table}
\begin{enumerate}
\item  对这两个药物的治愈率计算卡方检验和 Fisher 精确检验。
\item  这两种检验有什么不同的地方？
\item  设置信水平为 95\%, 求治愈率的差的置信区间。
\end{enumerate}
%Compute the $\chi^2$ test and Fisher’s exact test and discuss the difference. Find an approximate 95\% confidence interval for the difference in healing probability.

\item  
一位老师在1968年9月20日到1969年2月1日买了254个蛋，煮蛋的时候没有使用开孔器。在1969年2月4日到4月10日买了130个蛋，煮蛋的时候使用了开孔器。鸡蛋的大小和破损、开裂的情况统计在下述表格里。
%(From “Mathematics 5” exam, University of Copenhagen, Summer 1969.) From September 20, 1968, to February 1, 1969, an instructor con- sumed 254 eggs. Every day, he recorded how many eggs broke during boiling so that the white ran out and how many cracked so that the white did not run out. Additionally, he recorded whether the eggs were size A or size B. From February 4, 1969, until April 10, 1969, he consumed 130 eggs, but this time he used a “piercer” to create a small hole in the egg to prevent breaking and cracking. The results were as follows:
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|c|} \hline
%Period & Size & Total & Broken & Cracked \\ \hline 
时间&开孔器使用情况 & 鸡蛋大小 & 总数 & 破损 & 开裂 \\ \hline 
1968.9.20 - 1969.2.1 & 未使用开孔器 & A & 54 & 4 & 8 \\ \hline  
1968.9.20 - 1969.2.1 & 未使用开孔器 & B & 200 & 15 & 28 \\ \hline  
1969.2.4 - 1969.4.10 & 使用开孔器 & A & 60 & 4& 9 \\ \hline  
1969.2.4 - 1969.4.10 & 使用开孔器 & B & 70 & 1& 7 \\ \hline  
\end{tabular}
\end{table}
分析煮蛋时使用开孔器是否有效地预防了破损和开裂。
%Investigate whether or not the piercer seems to have had an effect.

\item  比例的双侧检验的置信区间。
\begin{enumerate}
\item  设每次试验成功的概率是 $x=0.1$, 设某天在15次试验中成功了3次。求假设检验的 $p$ 值，
$$H_0: x=0.1, \,\,\text{v.s.}\,\, H_1:x\neq 0.1.$$ 
\item  对每个 $x\in [0,1]$, 求出上述假设检验的 $p$ 值。画出 $(x,p)$ 的图像。
\item  在这个问题中，为什么定义双侧置信区间比较困难？
\end{enumerate}

%Make a plot of the two-sided p-value for testing that the probability parameter is x when the observations are 3 successes in 15 trials for x varying from 0 to 1 in steps of 0.001. Explain what makes the definition of a two-sided confidence interval difficult.

\item %知识点：数据类型7：
某学校调查学习情况，随机抽查了100人进行询问，发现有10人有不及格课程。使用带连续性修正的比例检验，能否拒绝不及格率小于5\%的假设？设显著性水平 $\alpha=0.05$. 

\item  %题目4：
设 $X_1,X_2,\cdots, X_n$ 是独立同分布的一列随机变量，其分布函数是 $F(x)$. 定义经验分布函数为 
\begin{eqnarray*}
\hat{F}_n(x)=\frac{1}{n} \sum\limits_{i=1}^{n} I\{X_i\le x\}.
\end{eqnarray*}
其中当 $X_i\le x$ 时 $I\{X_i\le x\}=1$, 否则等于0. Glivenko-Cantelli 定理是说经验分布函数与总体分布函数的最大差异
依概率收敛于0, 即
%\begin{eqnarray*}
$\sup\limits_{x\in\mathbb{R}} | \hat{F}_n(x)-F(x)| \to 0, \,\,\, \text{a.s.} $. 
%\end{eqnarray*}
写一段程序来验证这个定理。

\item  %题目6：
对冷却到 $-0.72$\textcelsius 的样品用 A,B两种测量方法测量其融化到 $0$\textcelsius 时的潜热，数据如下。

方法A：79.98, 80.04, 80.02, 80.04, 80.03, 80.03, 80.04, 79.97, 80.05, 80.03, 80.02, 80.00, 80.02.

方法B：80.02, 79.94, 79.98, 79.97, 80.03, 79.95, 79.97, 79.97. 

假设它们来自正态总体。判断它们的方差是否相等，并检验两种测量方法的平均性能是否相等。（$\alpha=0.05$）

\item %知识点：数据类型10：
设某种材料的抗压强度服从正态分布 $X\sim N(\mu, \sigma^2)$. 现在随机抽取10个试验件进行抗压试验，测得数据如下表。
\begin{table}[ht]
\centering
%\caption{抗压强度的一个样本}\vspace{0.2cm}
%\begin{tabular}{|p{0.6cm}|c|c|c|c|c|c|c|c|c|c|} \hline 
\begin{tabular}{|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|p{0.6cm}|} \hline 
$k$ & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10    \\ \hline 
$x_k$ & 482 & 493 & 457 & 471 & 510 & 446 & 435 & 418 & 394 & 369   \\ \hline 
\end{tabular}
\end{table}
求平均抗压强度 $\mu$ 的置信水平为 95\% 的置信区间。

\item %知识点：数据类型2：Yates连续性修正法
设随机变量 $X$ 服从二项分布 $b(25,0.4)$. 用四种方法计算概率 $\mathbb{P}(5\le X\le 15)$.
\begin{enumerate}
\item  使用二项分布公式精确计算。
\item  使用正态近似计算。
\item  使用正态近似计算，加Yates 修正方法。
\item  使用泊松近似计算。
\end{enumerate}

\item %知识点：数据类型10
若在猜硬币正反面的游戏中，某人在100次试验里中猜中60次。设显著性水平为 0.05, 你是否认为他有诀窍？

\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第9章：(9.1-9.4) 功效与样本容量的计算}
\subsection{内容提要}
\begin{itemize}
\item 假设检验中的两类错误和功效的概念
\item 比较两样本的比例的差异，比较两样本／配对样本的均值的差异
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
%\item 解释假设检验的思路和过程。解释两类错误，以及发生的概率。

\item （非中心$t$分布）设有总体 $X$ 和简单随机样本 $X_1,\cdots,X_n$, 总体均值为 $\theta$, 总体方差为 $\sigma^2$. 样本均值为 $\bar{X}$, 样本方差为 $S^2$. 假设检验问题和统计量如下。
\[ H_0: \theta=0 \,\,\, \textrm{v.s.} \,\,\, H_1: \theta\neq 0;  \hspace{0.5cm} T= \frac{\bar{X}}{S/\sqrt{n}} = \frac{\frac{\bar{X}-\theta}{\sigma/\sqrt{n}}+\frac{\theta}{\sigma/\sqrt{n}}}
{\sqrt{\left( \frac{(n-1)S^2}{\sigma^2} \right)/(n-1)}} . \]
\begin{enumerate}
\item 在 $H_0$ 为真时，$T$ 服从什么分布？
\item 在 $H_1$ 为真时，$T$ 服从什么分布？
\end{enumerate}

\item （配对样本的均值差异）在一个对比试验中，考虑治疗方案A和治疗方案B的效果的配对样本。检验其差异是否为零。
设该 $t$ 检验的自由度 $n=25$, 非中心参数 $ncp=3$, 显著性水平 $\alpha=0.05$. 求检验的功效。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|c|} \hline
组别 & 样本容量 & 效果的样本均值 & 总体均值 & 总数标准差  \\ \hline
治疗方案A & $n$ & $\bar{X}$ & $\mu_1$ & $\sigma_1$  \\ \hline
治疗方案B & $n$ & $\bar{Y}$ & $\mu_2$ & $\sigma_2$   \\ \hline
\end{tabular}
\end{table}

%疑问：治疗方案的病人如何做成配对样本？一个病人同时／先后接受两种治疗？

%\begin{enumerate}
%\item 比较普通 $t$ 分布和非中心 $t$ 分布的异同。
%\item 设配对样本的容量为 $n$ 对，每组的总体标准差为 $\sigma$, 设总体均值的差异为 $\delta$, 则非中心参数由下式给出：
%\[ \nu = \frac{\delta}{\sigma/\sqrt{n}}. \]
%\end{enumerate}

\item （两样本的比例）想要比较两类人群的发病率的差异，给定检验的显著性水平 $\alpha$ 和功效 $\beta$, 如何确定样本容量 $(m,n)$ ？
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|} \hline
组别 & 发病人数 & 未发病人数 & 总数  \\ \hline
观测组 & $a$ & $c$ & $m$  \\ \hline
对照组 & $b$ & $d$ & $n$   \\ \hline
总数 & $s$ & $f$ & $N$  \\ \hline
\end{tabular}
\end{table}

\item 研究饮食中摄入牛奶对身高的影响。给定双侧检验的显著性水平 $\alpha=0.01$ 和功效 $\beta=0.90$. 设两个总体的标准差都是 $2$ 厘米。为检测到总体均值的差异 $\delta=0.5$ 厘米，求最小的样本容量。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|} \hline
组别 & 人数 & 身高的样本均值 & 身高的总体均值 & 身高的总体标准差  \\ \hline
常喝牛奶 & $n$ & $\bar{X}$ & $\theta_1$ & $\sigma_1=2$ 厘米  \\ \hline
不常喝牛奶 & $n$ & $\bar{Y}$ & $\theta_2$  & $\sigma_2=2$ 厘米 \\ \hline
\end{tabular}
\end{table}


\end{enumerate}

\subsection{课后习题}
P132: 9.1-9.5. 

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第10章：(10.1-10.5) 数据处理的高级技术}
\subsection{内容提要}
\begin{itemize}
\item 数据分组，因子合并，追加数据框，合并数据框，重塑数据框
%\item 
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
\item 使用 \verb+cut+ 函数将一组数据分组。两个基本的输入参数是一个数值向量和一个节点向量。
\item 当各个分组内的样本数目太少时，将两个或多个因子水平合并。
\item 以数据框 \verb+juul+ 为例，进行增加变量和增加记录的操作。
\item 以数据框 \verb+nickel+ 和 \verb+ewrates+ 为例，进行合并数据框的操作。
\item 以数据框 \verb+alkfos+ 为例，进行重塑数据框的操作。

\end{enumerate}

\subsection{课后习题}
P152: 10.1-10.4.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\newpage
\section{第11章：(11.1-11.3) 多元回归}
\subsection{内容提要}
\begin{itemize}
\item 多维数据绘图，模型设定和模型输出
\item 模型筛选：向后消元法
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
%\item 模型探索，变量选取。如何在一个潜在的预测变量集合里找到一个能够有效刻画响应变量的预测变量子集。
\item 以数据框 \verb+cystfibr+ 为例，绘制数据集中任一两个变量之间的散点图。
\item 以数据框 \verb+cystfibr+ 为例，选取 \verb+pemax+ 为响应变量，其余为预测变量。
\begin{enumerate}
\item 建立多元线性回归模型，解释输出结果。考察预测变量的显著性。
\item 解释上述线性模型的方差分析表。
\item 人工进行模型降阶，解释需要特别关注变量 \verb+age+, \verb+weight+ 和 \verb+height+.
\end{enumerate}
\end{enumerate}

\subsection{课后习题}
P161: 11.1-11.5.

%{\color{red}
%\subsection{学习目标}
%\begin{itemize}
%\item 使用lm函数进行多元回归分析，熟练使用模型公式。理解lm函数的输出结果。
%\item 使用anova函数进行方差分析，理解回归模型中的方差分析表的含义。
%\end{itemize}
%}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第12章：(12.1-12.8) 线性模型}
\subsection{内容提要}
\begin{itemize}
\item 多项式回归，分组数据的线性回归
\item 协方差分析
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
\item （二次函数回归）载入数据框 \verb+cystfibr+.
\begin{enumerate}
\item 画出变量 \verb+height+ 和 \verb+pemax+ 之间的散点图。
\item 以 \verb+height+ 为解释变量，\verb+pemax+ 为响应变量，用二次多项式回归。
\item 绘制带预测值和置信带的拟合曲线。
%\item 
\end{enumerate}

%\item （设计矩阵与虚拟变量）
\item （组间共线性）载入数据框 \verb+fake.trypsin+.
\begin{enumerate}
\item 以 \verb+grpf+ （因子数据类型，表示组别）为解释变量，\verb+trypsin+ 为响应变量，作方差分析。
\item 以 \verb+grp+ （数值数据类型，表示组别）为解释变量，\verb+trypsin+ 为响应变量，作方差分析。
\item 将这个分组数据用 \verb+stripchart+ 函数绘图。作出各组的均值的连线，和线性回归的直线。
\item 通过均值和标准差来进行方差分析，并与上述两个方差分析作比较。
\end{enumerate}

\item （协方差分析）分析葡萄糖（glucose）是否影响四膜虫 （Tetrahymena） 细胞的直径和浓度多少。载入数据框 \verb+hellung+.
\begin{enumerate}
\item 按照是否加入葡萄糖，将 \verb+glucose+ 变量转为因子型数据。
\item 用 \verb+plot+ 函数绘制 \verb+(conc, diameter)+ 数据的散点图，注意数据按照 \verb+glucose+ 分组。
\item 对浓度（conc）和直径（diameter）取对数，然后按 \verb+glucose+ 分组作线性回归。
\item 使用下述模型公式，对数据作线性回归，解释回归结果和方差分析表。
\begin{center}
\verb+log10(diameter) ~ log10(conc) * glucose+
\end{center}

\end{enumerate}
\end{enumerate}

\subsection{课后习题}
P187: 12.1-12.9.

%{\color{red}
%\subsection{学习目标}
%\begin{itemize}
%\item 使用lm函数进行二次函数回归，计算置信区间和预测区间。
%\item 对分组数据进行线性回归和方差分析。
%%\item 
%\end{itemize}
%}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第13章：(13.1-13.7) 逻辑回归}
\subsection{内容提要}
\begin{itemize}
\item 逻辑回归模型表达式，偏差表分析
\item 剖面似然函数，让步比
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
\item 解释下述线性模型的含义。
\[ \log \frac{p}{1-p} = \textrm{logit}\,\, p =  \beta_0 + \beta_1x_1 + \beta_2x_2 +\cdots+ \beta_kx_k \]
\begin{enumerate}
\item 为什么该模型没有误差项？
\item 用极大似然方法估计参数，似然函数 $L(\beta)$ 是什么？
%\item 
\end{enumerate}

\item 分析下述有关吸烟、肥胖、打鼾与高血压的人群的数据。
\begin{table}[ht!]\centering
\begin{tabular}{|c|c|c|c|c|} \hline
是否吸烟 & 是否肥胖 & 是否打鼾 & 高血压人数 & 总人数  \\ \hline
否 & 否 & 否 & 5 & 60   \\ \hline
是 & 否 & 否 & 2 & 17   \\ \hline
否 & 是 & 否 & 1 &  8  \\ \hline
是 & 是 & 否 & 0 & 2   \\ \hline
否 & 否 & 是 & 35 & 187   \\ \hline
是 & 否 & 是 & 13 & 85   \\ \hline
否 & 是 & 是 & 15 & 51   \\ \hline
是 & 是 & 是 & 8 & 23   \\ \hline
\end{tabular}
\end{table}
\begin{enumerate}
\item 建立逻辑回归模型。给出每个系数的显著性的假设检验的结果。
\item 进行偏差表分析。解释用到的统计量。判断哪些因素与高血压相关？
\item 了解什么是 Profile Likelihood, Conditional Likelihood 和 Marginal Likelihood. \\
对截距、肥胖和打鼾的三个参数进行剖面分析。
\item 给出模型系数的指数的置信区间。
\end{enumerate}

%\item 

%\item 

%\item 

\end{enumerate}

\subsection{课后习题}
P206: 13.1-13.5.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第14章：(14.1-14.5) 生存分析}
\subsection{内容提要}
\begin{itemize}
\item 生存函数，Kaplan-Meier 曲线
\item Cox 比例风险模型
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
\item 写出生存函数和风险函数的定义。有关寿命的数据有哪些特点？了解右侧截断数据。
\item 安装 \verb+survival+ 程序包和 \verb+ISwR+ 程序包，载入 \verb+melanom+ 数据框。
\begin{enumerate}
\item 创建一个 \verb+Surv+ 对象。
\item 解释生存函数的 Kaplan-Meier 估计的计算方法。
\item 从 \verb+melanom+ 数据框里的数据画出生存曲线。
\item 用对数秩检验判断两条生存曲线是否相同。
\end{enumerate}

\item 用 Cox 比例风险模型来分析 \verb+melanom+ 数据框里的数据。

\end{enumerate}

\subsection{课后习题}
P216: 14.1-14.4. 

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第15章：(15.1-15.4) 比率与泊松回归}
\subsection{内容提要}
\begin{itemize}
\item 泊松过程的似然函数，泊松回归分析
\item 两个实例分析：丹麦城市 Federicia 和 南威尔士镍冶炼厂
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
\item 叙述泊松分布和泊松过程的概念。注意参数的不同含义。
\item 设某事件的发生（如超市进来一个顾客）服从泊松过程，在单位时间内发生的次数为 $\rho$, 单位是人／单位时间。现在记录得到在 一段长度为 $T$ 的时间内，发生了 $x$ 次事件。用极大似然估计的方法估计参数 $\rho$. 似然函数如下。先求出对数似然函数。
\[ L(\rho;x)=\frac{(\rho T)^x}{x!}e^{-\rho T}. \]

\item 载入 \verb+ISwR+ 程序包里的 \verb+eba1977+ 数据框，其中有四个丹麦城市 Fredericia, Horsens, Kolding 和 Vejle 的不同年龄段的肺癌患病率。用泊松回归分析年龄对患病率的影响，和不同城市对患病率的影响。并回答这样的问题：Fredericia 城市的患病率高于其它三个城市吗？

\item 载入  \verb+ISwR+ 程序包里的 \verb+nickel.expand+ 数据框，该数据框是关于南威尔士镍冶炼工厂的工人情况，包括暴露在镍环境下的信息，跟踪的时间，以及死亡的原因。研究该数据框。计算肺癌发病率
\begin{enumerate}
\item 计算这个数据集里呈现出来的死亡率。
\item 使用一个只包含截距项和补偿项的泊松回归模型进行分析。
\item 按照 Breslow 和 Day 的分析，考虑年龄、时期和雇佣年数，拟合一个可乘泊松回归模型。

\end{enumerate}

\end{enumerate}

\subsection{课后习题}
P230: 15.1-15.2.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage
\section{第16章：(16.1-16.5) 非线性曲线拟合}
\subsection{内容提要}
\begin{itemize}
\item 非线性回归，一个基本例子
\item Gompertz 曲线的例子
\end{itemize}

\subsection{例题讲解}
\begin{enumerate}
\item 生成一组符合 $y=5e^{-0.2t}$ 规律的数据 $(t_k,y_k),k=1,\cdots,n$, 带有标准差为0.2 的正态分布的随机扰动。然后用 \verb+nls+ 函数，使用函数形式 $Y=Ae^{-\alpha t}$ 估计系数 $A$ 和 $\alpha$.

\item 载入 \verb+juul+ 数据框，使用 Gompertz 曲线拟合年龄 $x$ 与身高 $y$ 的函数关系。函数模型可以写成如下形式，其中 $\alpha,\beta,\gamma$ 为待估计的系数。并用剖面分析计算它们的置信区间。
\[ \log (\log\alpha - \log y) = \log \beta -\gamma x. \]

%\item 
%\item 

\end{enumerate}

\subsection{课后习题}
P242: 16.1-16.3.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\end{document}





